1
Введение в генеративное моделирование: выход за рамки дискриминации
EvoClass-AI003Лекция 8
00:00

Введение в генеративное моделирование: выход за рамки дискриминации

Мы переходим от дискриминативного моделирования, которое решает задачи классификации и регрессии путем обучения условной вероятности $P(y|x)$, к сложной области генеративного моделирования. Теперь наша основная цель — это оценка плотности распределения: оценка полного базового распределения данных $P(x)$. Это фундаментальное изменение позволяет нам уловить тонкие зависимости и сложную структуру в высокоразмерных наборах данных, выйдя за рамки простого разделения границ и достигая настоящего понимания и синтеза данных.

1. Цель генеративного моделирования: моделирование $P(x)$

Цель генеративной модели — оценить вероятностное распределение $P(x)$, из которого произошли обучающие данные $X$. Успешная генеративная модель может выполнять три важнейшие задачи: (1) Оценка плотности (присвоение вероятностного значения входному $x$), (2) Выборка (генерация полностью новых точек данных $x_{new} \sim P(x)$), и (3) Обучение признаков без учителя (обнаружение осмысленных, раздельных представлений в скрытом пространстве).

2. Классификация: явная против неявной функции правдоподобия

Генеративные модели по своей сути делятся на две категории в зависимости от подхода к функции правдоподобия.Явные модели плотности, такие как вариационные автоэнкодеры (VAE)и модели потока, определяют математическую функцию правдоподобия и пытаются максимизировать её (или её нижнюю границу).Неявные модели плотности, наиболее известны генеративные состязательные сети (GAN), полностью игнорируют вычисление функции правдоподобия, вместо этого обучаясь функции отображения для выборки из распределения $P(x)$ с использованием адверсарного метода обучения.

Вопрос 1
В генеративном моделировании какое распределение является основным объектом интереса?
$P(x)$
$P(y|x)$
$P(x|y)$
$P(y)$
Вопрос 2
Какой тип генеративной модели использует состязательное обучение и избегает определения явной функции правдоподобия?
Вариационный автоэнкодер (VAE)
Авторегрессионная модель
Генеративная состязательная сеть (GAN)
Модель смеси гауссиан (GMM)
Вызов: обнаружение аномалий
Использование оценки плотности
Финансовая организация обучила явную модель плотности $G$ на миллионах легальных записей транзакций. Приходит новая транзакция $x_{new}$.

Цель: определить, является ли $x_{new}$ аномалией (мошенничеством).
Шаг 1
На основе оценки плотности $P(x)$, какая статистическая мера должна быть вычислена для $x_{new}$, чтобы отметить её как аномальную?
Решение:
Модель должна оценить вероятность (или правдоподобие) $P(x_{new})$. Если $P(x_{new})$ падает ниже заранее заданного порога $\tau$, то есть новая точка статистически маловероятна в рамках обученного распределения нормальных транзакций, она помечается как аномалия.